Regresión lineal y logística · KNN · KMeans · Árboles de decisión — principio lógico, matemática, preprocesamiento, evaluación y código Python con el Iris Dataset.
scikit-learn · pandas · matplotlib · seaborn
| Característica | Supervisado | No supervisado |
|---|---|---|
| ¿Necesita etiquetas (y)? | Sí ✓ | No |
| ¿Qué aprende? | Función X → y | Estructura de los datos |
| Métrica de evaluación | Accuracy, R², Recall... | Silhouette, inercia... |
| Ejemplos en esta clase | Reg. Lineal, Logística, KNN, Árbol | KMeans |
model = Algoritmo(hiperparámetros)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
score = metrica(y_test, y_pred)
| Variable | Tipo | Rol clínico |
|---|---|---|
| sepal length (cm) | float64 | Medida morfológica → predictor |
| sepal width (cm) | float64 | Medida morfológica → predictor |
| petal length (cm) | float64 | Medida morfológica → predictor |
| petal width (cm) | float64 | Medida morfológica → predictor |
| species | categórica (3) | Diagnóstico → variable objetivo |
| k pequeño | k grande |
|---|---|
| Fronteras irregulares (overfit) | Fronteras suaves (posible underfit) |
| Muy sensible al ruido | Más robusto, menos preciso en bordes |
StandardScaler siempre.
| Métrica | Fórmula | Cuándo priorizarla |
|---|---|---|
| Accuracy | (TP+TN) / Total | Clases balanceadas |
| Recall / Sensibilidad | TP / (TP+FN) | No puedes perder enfermos |
| Precisión | TP / (TP+FP) | Evitar falsos positivos costosos |
| F1 Score | 2·P·R / (P+R) | Clases desbalanceadas |
| AUC-ROC | Área bajo curva ROC | Comparar modelos entre sí |
| Métrica | Fórmula | Interpretación |
|---|---|---|
| MSE | Σ(y − ŷ)² / n | Error promedio al cuadrado · penaliza outliers |
| RMSE | √MSE | Mismo rango que y · más interpretable |
| MAE | Σ|y − ŷ| / n | Más robusto a outliers |
| R² | 1 − SS_res/SS_tot | 0–1 · proporción de varianza explicada |
max_depth en árboles)